Emparejamiento de Flujos Acoplado por Cuantiles para el Aprendizaje por Refuerzo Distribucional
Aprendizaje por refuerzo distribucional con flujos acoplados por cuantiles: técnica avanzada para modelar distribuciones de retorno y mejorar políticas de decisión.